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面向 众 核 结构 的 并 行 Comba 乘法 研究 


黄 插 上 冉 ， 徐 江 峰 


(郑州 大 学 信息 工程 学 院 ,， 郑州 450001) 


摘 要 : 为 发 挥 众 核 处 理 器 性 能 优势 及 求解 更 大 规模 问题 ， 针 对 大 整数 乘法 在 众 核 处 理 器 上 的 并 行 化 进行 研究 。 在 对 
笔算 乘法 和 Comba 乘法 并 行 性 进行 分 析 的 基础 上 ， 针 对 Comba 乘法 并 行 化 时 面临 的 负载 均衡 问题 并 提出 了 多 种 解决 


方法 ; 然后 针对 SW26010 的 结构 特征 ， 选 择 借鉴 笔算 乘法 改进 的 Comba 乘法 ， 并 且 实 现 过 程 使 用 了 向 量化 、 寄 存 器 
通信 等 优化 方法 。 测 试 结 果 说 明 改 进 后 的 并 行 Comba 算法 具有 较 好 的 并 行 性 ， 能 够 很 好 地 利用 SW26010 众 核 处理 器 
的 性 能 优势 。 
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Research on parallel Comba multiplication for many core processors 


Huang Haoran, Xu Jiangfeng 
(College of Information Engineering, Zhengzhou University, Zhengzhou 450001, China) 


Abstract: In order to exploit the performance advantages of many core processors and solve more large-scale problems, this 
paper studied the parallelization of large integer multiplication on many core processors. Based on the parallel analysis of Written 
multiplication and Comba multiplication, this paper proposed a variety of solutions to solve the problem of load balancing when 
Comba multiplication is parallelized. Then according to the structural characteristics of SW26010, this paper selected the 
improved Comba multiplication based on Written multiplication. And the implementation process used some optimization 
methods such as vectorization, register communication and so on. The test results show that the improved Comba algorithm has 
better parallelism and can make good use of the performance advantages of the SW26010 many core processor. 
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二 1990 年 ，Comba 在 笔算 乘法 的 基础 上 提出 了 一 种 改进 算法 外， 
© 于 虽然 执行 乘法 的 次 数 与 笔算 乘法 相同 , 但 Comba 算法 以 列 汶 音 


对 算数 运算 的 研究 一 直 是 人 类 科学 发 展 过 程 中 非常 重要 的 位 计算 ， 将 笔算 乘法 中 处 理 进位 的 次 数 由 次 降 为 2n 次 ， 
方向 ， 很 多 科学 问题 的 解决 依赖 于 准确 、 快 速 的 算术 运算 。 在 “Comba 算法 普遍 用 于 PC 加 密 系 统 。 基 本 算法 最 为 简单 ， 具 有 
计算 机 上 ， 算 数 运算 是 实现 各 种 应 用 的 基础 ， 研 究 其 高 效 算法 容易 理解 ， 并 且 易 于 计算 机 程序 实现 的 特点 。 

对 利用 计算 机 解决 科学 问题 有 着 重要 意义 。 在 加 减 乘除 四 则 基 分 治 乘法 、FFT 乘法 和 数论 乘法 等 快速 算法 都 将 乘法 运算 
本 算数 运算 中 ， 乘 法 运算 ， 尤 其 是 大 整数 乘法 运算 ， 在 密码 系 的 复杂 度 降低 到 了 O(n*) 以 下 。 分 治 是 以 一 种 解决 大 规模 问题 
统 趾 、 大 规模 科学 计算 中 有 着 广泛 的 应 用 。 随 着 科技 的 发 展 , 需 的 重要 方法 ，KaratsubaD] 使 用 二 分 递归 的 方法 将 大 整数 乘法 的 
要 求解 的 问题 的 规模 越 来 越 大 ， 精 度 要 求 越 来 越 高 ， 对 大 整数 时 间 复 杂 度 降低 到 了 O(n*”“) ， 该 算法 实现 相对 简单 ， 额 多 
乘法 的 性 能 要 求 也 越 来 越 高 。 长 久 以 来 ， 人 们 对 大 整数 乘法 进 ” 销 较 少 ， 在 RSA 等 公 钥 加 密 系 统 中 有 较 多 使 用 。Toom 发 展 了 
行 了 大 量 研究 ， 成 果 众 多 ， 形 成 了 多 种 大 整数 乘法 计算 方法 。 这 种 分 治 递 归 的 思想 , 提出 将 大 整数 分 为 k 部 分 (k>2) 进行 递 
主要 的 乘法 算法 大 致 可 以 分 基本 乘法 、 分 治 乘 法 、FFT (fast 蛋 ,，k 随 乘法 规模 而 变化 ， 后 来 Cook 利用 Toom 的 思想 加 快 乘 
Fourier transform ) 乘法 和 数论 乘法 等 几 类 。 法 的 计算 机 程序 ， 称 为 Toom-Cook 乘法 算法 内。 该 算法 在 Kk 值 
基本 算法 主要 是 传统 的 笔算 算法 以 及 在 此 基础 上 的 改进 算 较 大 时 变 得 非常 复杂 ， 在 实际 应 用 中 较 少 采用 ， 常 用 的 k 值 
法 。 笔 算 乘 法 中 ， 一 个 乘 数 的 每 一 位 需要 乘 以 另 一 个 乘 数 的 每 般 在 6 以 下 。 当 k=3 时 ， 就 是 最 常用 的 Toom-Cook 3-Way 算 
一 位 ,因此 ,两 个 n 位 整数 相 乘 , 笔算 乘法 的 时 间 复 杂 度 为 002) 。 法 ， 其 时 间 复 杂 度 为 00245) 。 大 整数 乘法 利用 FFT 计算 过 程 
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中 多 项 式 在 系数 表示 与 点 值 表示 2 


杂 度 能 降低 到 O(nlognloglogn) 中 


间 快 速 转换 ， 能 够 将 时 间 复 
但 是 FFT 乘法 的 缺点 是 可 


能 产生 精度 误差 , 利用 数论 变换 (Number Theoretic Transforms， 
NTT) 中 的 原 根 代 蔡 FFT 中 的 单位 负 根 实现 的 数论 乘法 则 能 


服 这 一 问题 中 。 此 乡 
度 为 O(nlogn2%"*”) 的 乘法 算法 0 


，2007 年 ，Fiirer 提出 了 一 种 理论 时 间 复 杂 


1， 是 目前 最 快 的 大 整数 乘法 


算法 , 此 后 又 有 大 量 对 该 算法 的 改进 算法 [9 ,该 算法 太 过 复杂 ， 


目前 仅 在 超大 整数 运算 中 有 所 应 用 。 


这 些 算法 使 用 了 不 同 的 计算 策略 ， 并 各 有 具 优势 。 在 实际 应 
用 中 ,无 法 通过 某 一 方法 解决 所 有 问题 ,根据 各 个 算法 的 优势 ， 


在 不 同 的 数据 规模 下 使 用 不 同 的 入 


法 , 分 治 算法 等 多 个 算法 。 笔算 乘 


的 策 


法 是 大 整数 运算 库 常 ) 


略 ， 比 如 性 能 非常 优秀 的 GMP 库 09 使 用 了 基本 算法 ，FFT 算 


法 和 Comba 乘法 等 基本 乘法 


算法 较 其 他 快速 算法 虽然 复杂 度 高 ， 但 基本 乘法 实现 简单 ， 程 


序 流程 简单 ， 


常 作为 分 治 算法 迭代 到 较 小 规模 时 调 ) 
前 ， 在 功 耗 和 散热 等 问题 的 限 种 


在 数据 规模 较 小 时 有 很 大 优势 ， 


而 且 基 本 乘法 通 
的 底层 算法 。 


下 ，CPU 主 频 的 提升 达 


到 上 限 , 单个 CPU 的 计算 能 力 已 经 很 难 继续 提升 。 为 了 继续 维 
持 摩 尔 定律 ， 计 算 机 体系 结构 开始 向 多 核 、 众 核 结构 发 展 ， 多 


核 处 理 器 已 经 十 分 普及 ， 众 核 处 理 


器 也 开始 在 高 性 能 计算 领域 


普遍 使 用 中。 例如 ， 目 前 在 超级 计算 机 TOP500 榜 单 中 排名 第 
一 的 我 国 神威 太湖 之 光 计 算 机 使 用 的 具有 自主 知识 产权 的 


SW26010 众 核 处 理 器 [9 单 芯片 核 数 达 到 
在 新 型 众 核 结构 上 高 效 实现 并 行 的 大 整数 运算 ， 特 别 是 大 整数 
器 性 


乘法 运算 ， 对 于 发 挥 众 核 处 理 


260 核 。 研 究 如 何 


能 优势 ， 求 解 更 大 规模 问题 


具有 重要 意义 。 但 目 


前 对 并 行 大 整数 乘法 


算法 的 探讨 和 研究 i 


黄 绀 冉 ， 等 : 


笔算 乘法 :给 定 


b， 它们 的 乘积 记 为 (Wmtn1...WIW0) b。 
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MI1. [初始 化 ] 将 Wm+n-l1， Wmtn-2,...» WO 赋 初 值 为 0， 
M2. 置 je0, ke0。 


法 研究 


个 b 进 制 整 数 Cunl...uruo)pb 和 (val...vivo) 


le-0。 


M3. [部 分 乘积 累加 ] 置 tcuixvi+wij+k, 然后 置 wsjeto%b， 
ket/b 
M4 [对 循环 jj++， 如 果 j<n， 则 返回 M3， 否 则 令 wrijiek 
M5 [对 循环 种 i++， 如 果 i<m， 则 返回 M2， 和 否则 算法 结束 
根据 上 述 笔算 算法 ， 可 以 得 到 用 C 语言 实现 笔算 乘法 的 核 
心 是 一 个 2 层 嵌 套 循 环 : 
for (=0;1<mii++) 
{ 
k=0; // 表 示 进 位 


以 ,笔算 乘法 计算 到 


} 


ford = 0;j <n;j++) 


{ 
t=u[i] * vi] + w[it] + k; 
w[iH] = t%10; 
k= t/b; 

} 

w[i+j] = k; 


分 析 笔 算 乘 法 发 现 , 用 笔算 乘法 计算 两 个 m 位 和 n 位 数 的 


AN 


只 ， 至 少 有 需要 进行 mn 次 乘法 ， 以 及 mn 次 进位 处 理 ， 所 
个 年 位 和 an 位 数 乘 积 的 时 间 复 杂 度 为 omn)。 


特别 地 ， 当 两 个 乘 数 位 数 相同 时 ， 复 杂 度 为 o(n?)。 
笔算 乘法 计算 过 程 中 ， 每 一 次 相 乘 都 需要 向 上 传递 进位 ， 


究 还 
核 / 众 核 平台 并 行 实现 现 有 乘 


相对 较 少 , 仅 有 少量 研究 如 何在 多 


法 算法 的 工作 。 
Karatsuba 乘法 的 多 核 并 行 化 的 研 
实现 了 FFT 乘法 上 叫 ， 赵 明 祥 在 M 


0 中 科 院 的 蒋 丽 娟 等 人 开展 了 Comba 和 


究 工 作 03;， 许 亮 基于 CUDA 
IC 加 速 器 上 实现 了 一 个 并 行 


的 Karatsuba 算法 05。 但 对 算法 并 行 性 的 分 析 ， 以 及 如 何 提高 


算法 并 行 性 ， 


少 。 


本 文 的 研究 


解决 并 行 化 过 程 中 的 负载 均衡 等 问题 的 研 


的 是 找到 能 够 在 众 核 结 构 上 高 效 


究 较 


行 的 基本 


乘法 算法 ,为 众 核 结构 上 构建 完整 


本 文 在 研究 分 析 了 笔算 乘法 、Comba 算法 
多 种 实现 高 效 并 行 Comba 乘法 
理 器 上 进行 了 实现 ， 实 现 过 程 采用 了 片上 寄存 器 通信 、 向 量 


出 了 
处 
化 等 优化 方法 。 
1 ”基本 乘法 分 析 
笔算 乘法 分 析 


1.1 


的 大 整数 乘法 算法 莫 定 基础 。 
行 性 的 基础 上 ， 提 
的 改进 方法 , 并 在 SW 众 核 


笔算 乘法 是 最 早 的 乘法 运算 方法 ， 具 有 易于 理 
个 乘 数 的 每 一 位 需要 与 另 一 个 乘 数 的 


单 的 特点 。 笔 算 乘 法 中 


每 一 位 相 乘 ， 并 将 这 些 乘积 按 进位 比例 累加 到 一 起 。 下 面 


笔算 乘法 的 具体 算法 描述 。 


解 、 实 现 简 


给 出 


进 


四 
个 


携 


wl 


位 处 理 使 得 笔算 乘法 每 
质 序 执行 。 上 述 C 语 言 实现 的 笔算 乘法 
j 循环 的 每 次 过 代 都 依赖 于 上 一 次 迭代 计算 的 进 
带 的 依赖 ; i 循环 的 每 次 兴 代 也 需要 上 一 次 迭代 计算 的 进位 
i+tj]， 同样 存在 循环 携带 的 依赖 。 因 此， 笔算 乘法 过 程 只 能 顺 
序 执行 ， 整 个 算法 很 难 并 行 执行 ， 不 


台 已 
,只 能 


市 


步 的 计算 都 依赖 于 上 一 步 的 计算 结 
的 核心 循 


不 中 ， 


位 k, 存在 循环 


1.2 Comba 乘法 分 析 
Comba 在 笔算 乘法 算法 基础 上 提出 了 Comba 乘 
法 。Comba 乘法 法 的 计算 过 程 于 乘法 类 似 ， 


的 每 一 位 与 另 一 个 乘 数 的 每 一 位 相 乘 , 不 同 
为 单位 进行 计算 ， 
笔算 乘法 中 处 理 进位 的 次 数 ， 算 法 效率 有 较 大 的 提升 。 


列 
减 
和 


1990 年 ， 


少 了 


面 给 出 Comba 乘法 的 


有 好 的 并 行 性 。 


2 证- 


同 术 
的 是 


整 列 ， 然 后 


再 处 到 


7 口 


体 算 法 描述 。 


需要 一 个 乘 数 
Comba 算法 以 
E 整 列 的 进位 ， 


Comba 乘法 : 给 定 两 个 b 进 制 整数 (umi...umo) b 和 (vn 
1...ViV0) b， 它 们 的 乘积 记 为 (Wmin1...WIW0) b。 


M1. [初始 化 ] 将 Wmtn-l, Wmtn-2，;...» WO 赋 初 值 为 0， 


ke-0。 


M2. [计算 u,v 位 置 及 位 数 ] 


semin(m-x,y+1), te0。 


M3. [ 列 乘 积 ] 计算 tett ux * vy， 并 x++，y-- 


le-0， 


yemin(in-1)，xe-i-y， 
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M4 [对 循环 j]j++, 如 果 j<s, 则 返回 M3 
ket/b, wlije(t)%b 

M5 [对 循环 证 f+， 如 果 i<m+n， 则 返 


束 


根据 上 述 算法 ， 可 以 得 到 用 C 语言 实 
心 如 下 : 
for(i 
{ 
t= 0; 


=0, k=0; 1< m+tn; i++) 


y= min(i,n-1); 
X=1-y; 
s= min(m-x,y+1); 
forQ = 0;j < s; j++) 
{ 
t+= u[xX++] * v[y--]; 

} 
t+= k; 
wli] = t%b; 
k= t/b; 

} 


,否则 计算 tet+k， 


可 M2， 和 否则 算法 结 


现 Comba 乘法 的 核 


分 析 Comba 乘法 可 知 ， 用 Comba 乘法 计算 两 个 m 位 和 n 


位 数 的 乘积 ， 至 少 有 需要 进行 mn 次 乘法 ， 


与 笔算 乘法 相同 。 


但 只 需要 处 理 mtn 次 进位 ， 将 笔算 乘法 处 
降 为 线性 。 
度 同样 是 omn)。 特 别 
on2)。 


在 Comba 乘法 的 计算 过 程 中 ， 


Comba 乘法 计算 两 个 m 位 和 mn 位 数 乘积 的 时 间 
也 ， 当 两 个 乘 数 位 数 相 同时 ， 复 杂 度 为 


里 进位 的 次 数 


mn 


复杂 


for(li 


{ 


} 


// 第 二 
for(li 


{ 


} 


这 样 就 和 


Xv 合作 期 由 


Chi 
黄 络 身 ， 等 : we Comba 


=0;1< m+n-l; i++) 


t=0; 
y= min(i,n-1); 
X=1-y; 
s=min(m-x,y+1); 
forg = 0;j < s; j++) 
{ 
wli] += u[x+t+] * vy--]; 


步 : 逐 列 处 理 进位 


=0,k=0;1i<mtn;it++) 


t= w[i +k; 
wli] = t%b; 
k= t/b; 


使 第 一 步 中 每 列 的 计算 过 程 相互 独 立 ， 可 以 完全 


行 , 提升 Comba 算法 的 并 行 性 。 但 是 第 二 步 从 低位 到 高 位 依 


次 处 理 进位 的 过 程 需要 顺序 执行， 
第 一 步 中 各 列 的 计算 虽然 可 
行 时 存在 一 个 严重 多 


无 法 并 行 。 
以 完全 并 行 ， 但 该 实现 方法 在 
陷 ， 即 各 列 的 计算 需要 进行 的 单 精度 乘 


二 


在 很 大 差异 ， 


法 的 次 数 不 同 。 这 使 得 并 行 计 算 各 列 的 值 时 ， 各 列 的 计算 量 存 


会 导致 严重 的 复杂 不 均衡 现象 。 要 解决 负载 不 均 


衡 的 问题 有 两 种 思路 : 


种 是 在 任务 划分 的 时 候 考虑 各 列 计算 


以 列 为 单位 进行 计算 , 每 


列 的 部 分 乘积 合并 过 程 
算 整 列 的 进位 


中 无 需 传递 进位 ， 合 并 完 一 列 2 
向 高 位 传递 , 得 到 最 终结 果 。 在 上 述 Comba 算 
法 的 经 典 实现 中 ,外 层 的 i 循环 用 来 遍历 每 一 列 的 计算 ， 


后 再 计 


i 循环 


的 计算 只 能 顺序 


循环 的 次 数 是 随 i 循环 变化 的 ， 变 化 范 


存在 进位 k 引起 的 循环 携带 依赖 ， 使 得 i 循环 

执行 。 内 层 的 j 循环 用 来 完成 第 i 列 的 合并 ， 由 于 本 身 是 一 个 
规约 求 和 的 过 程 ， 而 

围 从 1 到 n， 也 能 高 效 并 行 。 所 以 ，Comba 算法 并 行 性 同样 不 
好 。 


2 Comba 乘法 改进 


笔算 乘法 和 Comba 乘法 都 不 具 


好 的 并 行 性 , 很 难 在 众 核 


处 理 器 上 进行 高 效 的 并 行使 实现 。 但 分 析 Comba 乘法 的 原理 可 


的 ,能够 
在 众 核 处 


里 器 上 


行 实现 的 方法 。 


知 , 在 Comba 乘法 计算 过 程 中 , 每 列 的 计算 本 质 上 是 相互 独立 


量 不 同 的 情况 ， 寻 找 负载 更 加 均衡 的 任务 划分 方式 ， 另 一 种 是 
对 Comba 算法 继续 进行 改进 ， 


寻求 更 优 的 实现 方法 。 下 面 对 这 


两 种 思路 分 别 进行 分 析 。 


2.1 
1 给 


能 的 进位 处 至 


列 的 计算 中 


任务 划分 策略 


上 了 Comba 乘法 计算 过 程 的 示意 图 。 除 最 高 位 的 可 
EE 外， 共有 mtn-1 列 需要 计算 ， 前 n-1 列 和 后 n-1 
精度 乘法 运算 的 次 数 都 不 足 n 个 ， 而 且 是 随 着 列 


均匀 变化 ; 只 有 中 间 的 m-n+l 列 的 计算 中 单 精 度 乘 济 


运算 的 次 


数 为 n。 


于 是 在 进行 任 


务 划 分 时 ， 对 于 前 n-1 列 ， 可 将 第 1 列 


与 第 m+l 列 作为 一 个 整体 划分 到 一 个 任务 中 , 第 2 列 和 第 m+2 


列 作为 一 个 整体 ， 
要 划分 ， 且 每 个 任务 中 单 
任务 划分 的 方法 能 够 较 好 的 解决 负载 不 1 
存在 着 一 些 不 足 。 比 如 用 OpenMP 和 OpenACC 等 较 高 层 的 基 


行 执行 ， 所 以 本 文选 择 Comba 乘法 进行 改进 ， 寻 求 


只 需 将 Comba 算法 的 实现 过 程 稍 作 改进 , 将 整个 计算 过 程 


分 为 两 步 ， 第 
码 段 所 示 : 


// 第 一 步 : 合 


各 列 


步 计算 各 列 ， 第 二 步 统一 处 理 进位 ， 如 下 C 代 


于 编译 指示 的 编程 模型 ， 难 以 实现 如 此 精 引 
Pthread 和 MPI 饼 
以 实现 任务 的 
计算 的 列 数 不 同 会 导致 每 个 进程 或 线程 的 通信 量 


码 很 难 编写 。 


以 此 类 推 。 这样 共 有 m 个 计算 任 
精度 乘法 的 次 数 相同 。 
匀 衡 的 问题 ， 但 是 


务 需 


的 任务 划分 ; 用 

等 需要 手工 进行 任务 划分 的 编程 模型 ， 虽 然 可 
粒度 控制 ， 但 实现 过 程 很 繁琐 ， 而 且 每 个 任务 
不 同 ， 通 信 代 
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| ' Um-1 Ui Us Ul Uo ' 
网 i Vj va wa | 
voXun-l voXui voXus voXu Ex 
WiX ued ViXui ViXus viXu vixu | | 
va Xml \ ' VoXui VoXu» voXu: voXuo | 
| J 
VjX unl wx ViXus vjXu viXuo : ' 
| | | | 
Wm | 
VilXun … VXu … ei Xu ViXu viXw ' ' 
1 | | 
wmtn-2 win2 | we 1 w2 WI | wl 
| | | 
第 m+1 列 第 1 列 
图 1 Comba 乘法 计算 过 程 示 意图 
2.2 改进 的 Comba 算法 于 u 和 vij 两 个 位 数 ， 其 乘积 是 结果 wii 的 一 部 分 ， 即 有 
ee B00 Ww, 二 2 %*w ， 遍 历 完 两 个 乘 数 后 即 可 累加 得 到 各 列 的 结 
Comba 实现 进行 改进 的 方法 。 3 
1) 调整 计算 顺序 这 里 与 笔算 乘法 的 区 别 是 部 分 乘积 累加 的 过 程 不 再 处 理 进 位 ， 
漠 鉴 上 述 任务 划分 时 的 策略 ,在 实现 Comba 算法 时 ， 即 把 。 ”进位 是 在 得 到 了 各 列 的 值 之 后 统一 处 理 。 
第 i 列 和 第 itm 列 的 计算 放 到 一 次 循环 迭代 中 ,实现 代码 如 下 : 于 是 ， 可 以 将 Comba 算法 的 第 一 步 可 以 改进 为 如 下 实现 : 
// 第 一 步 : 合并 各 列 // 第 一 步 : 计算 得 到 各 列 
for(i=0;1i<m;1it++) fordG =0;1<mii++) 
ford = 0;j <n;j++) 
yl = min(i,n-1); wlitj] += u[1] * vOj]; 
y2 =yl+1; 在 该 实现 中 ，Comba 乘法 的 第 一 步 简 化 为 一 个 2 层 完 美 内 
xX] =i-yl; 套 循环 ， 且 2 层 的 循环 执行 次 数 都 是 固定 的 ， 其 迭代 空间 是 一 
x2 =itm-y2; 个 和 矩形。 该 实现 程序 控制 逻辑 简单 ， 而 且 对 实现 优化 有 很 多 方 
s = min(n,i+1); 便 之 处 ， 比 如 数据 预 取 、 向 量化 等 都 便于 在 该 循环 上 进行 。f 
for( = 0;j < s; j++) 该 方法 的 不 足 之 处 是 ， 在 对 i 循环 划分 之 后 进行 并 行 执行 时 ， 
{ 每 个 线程 或 进程 上 得 到 的 都 是 每 一 列 的 部 分 值 ， 还 需要 要 把 每 
wli] += vu[x1++] * v[y1--]; 个 线程 或 进程 上 的 w 数 组 通信 到 一 个 线程 或 进程 上 进行 一 次 累 
} 加 。 该 方法 在 通信 代价 较 大 的 机 器 上 不 太 适 用 ， 但 在 共享 存储 
for( = 0;j <ntl-s; j++) 结构 上 ， 由 于 进程 或 线程 之 间 进 行 数据 通信 的 代价 很 小 ， 该 方 
{ 法 能 够 取得 很 好 的 效果 。 
WO 3 ”并 行 Comba 算法 在 SW 众 核 处 理 器 上 的 实现 
} 3.1 SW 众 核 处 理 器 介绍 
该 方法 继承 了 上 述 任务 划分 方法 的 优点 ， 同 时 克服 了 任务 本 文 的 目标 是 在 国产 SW26010 众 核 处 理 器 上 实现 高 效 的 
划分 的 方法 用 OpenMP 和 OpenACC 等 编程 模型 无 法 实现 的 缺 。 基本 乘法 算法 。 SW26010 是 太湖 之 光 计算 机 系统 实现 高 计算 速 
点 ， 使 得 并 行程 序 的 设计 人 员 能 够 更 多 的 关注 算法 的 并 行 实现 。 度 和 低 功 耗 的 核心 器 件 。SW26010 是 面向 高 性 能 计算 领域 开发 
上 ， 而 不 去 分 析 算 法 本 身 存在 的 不 足 。 的 处 理 器 ， 其 结构 如 图 2 所 示 。 
2) 借鉴 笔算 乘法 芯片 主要 4 个 核 组 、 片 上 互联 网 络 和 系统 接口 等 组 成 。 核 
结合 笔算 乘法 与 Comba 乘法 的 特点 , 在 计算 顺序 上 借鉴 笔 。 组 内 采用 异 构 众 核 结 构 ， 包 括 1 个 主 核 和 1 个 由 64 个 从 核 构 
算 乘法 。 改 进 后 的 算法 不 再 按 顺 序 计算 结果 的 各 个 列 ， 而 是 顺 ”成 的 加 速 核心 阵列 。 主 核 是 功能 完整 的 64 位 RISC 核心 ， 支持 
序 遍 历 u 和 v 两 个 乘 数 的 各 个 位 。 由 乘法 的 计算 法 则 可 知 ， 对 ”32/64 位 整数 运算 、 单 / 双 精 度 浮 点 运算 和 原子 操作 ， 可 以 高 效 
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录用 稿 黄 卑 自 ， 等 向 众 核 结构 的 并 行 Comba 来 法 研究 
处 理 程序 的 串 行 段 ， 并 完成 计算 资源 和 功 耗 的 管理 。 从 核 也 是 。 ”实现 的 基本 思路 如 下 ; 

64 位 RISC 结构 ,其 指令 集 在 主 核 指令 集 的 基础 上 进行 了 精简 ， 对 i 循环 进行 划分 ， 每 个 从 核 执行 m/64 次 迭代 。 为 了 简 
针对 从 核 结构 特征 增加 了 寄存 器 通信 、 行 列 同步 等 特殊 指令 。 ”化 分 析 过 程 , 这 里 假设 m 能 够 整除 64, 对 于 实际 中 不 能 整除 的 
CR Ce) 情况 ， 可 以 在 高 位 补 0。 这 样 ， 每 个 从 核 上 都 会 计算 出 乘积 w 
TH 数组 各 个 元 素 上 的 一 部 分 值 .在 这 步 的 计算 过 程 中 , 内 层 的 j 特 

| 环 没 有 依赖 ,而 且 访 存 也 是 连续 的 ,能 够 很 方便 的 进行 向 量化 。 

tht b) 将 各 个 从 核 上 计算 得 到 的 w 数组 进行 规约 。 一 个 核 组 的 
一 = 一 一 国 关 目 ” 一 一 一 一 64 个 从 核 按照 8x8 的 网 络 结构 进行 连接 , 支持 行 和 列 上 的 广播 
| [| 通信 。 在 将 结果 进行 规约 时 ， 首 先 利用 从 核 之 间 的 片上 通信 ， 
| 将 每 一 行 8 个 从 核 上 的 w 数组 进行 规约 , 将 每 一 行 的 数据 规约 

| | 到 编号 最 小 的 从 核 上 ( 即 所 有 的 结果 位 于 第 一 列 ); 然后 在 第 一 

Cj Ce ) 列 上 进行 一 次 规约 , 将 结果 规约 到 一 个 从 核 上 ; 最 后 通过 DMA 
图 2 SW26010 处 理 器 结构 图 将 规约 得 到 的 w 数组 从 从 核 局 存 传输 到 主 存 。 
3.2 并 行 Comba 乘法 的 实现 oj 主 核 顺 序 完成 第 二 步 各 列 进位 的 处 理 。 进 位 处 理 中 需要 

SW26010 单个 处 理 器 包含 四 个 核 组 , 核 组 是 神威 太湖 之 光 ”用 到 求 余 和 除法 运算 ， 这 两 个 运算 比较 耗 时 ， 如 果 大 整数 表示 
计算 机 系统 上 进行 资源 分 配 的 基本 单位 。 本 文 的 目标 是 在 单个 ” 采用 的 进 制 为 2 的 军 ， 则 可 以 将 求 余 和 除法 运算 用 位 运算 快速 
核 组 上 实现 快速 的 并 行 大 整数 乘法 。 SW26010 上 实现 单个 核 组 实现 。 

内 主 核 和 从 核 2 同 的 异 构 并 行 有 丙种 编程 思 法 入 是 使 用 其 a 

于 编译 指示 的 OpenACC* 编 程 模 型 U4， 另 一 种 是 使 用 更 为 底层 

的 API 接 口 Athread.OpenACC* 基 于 编译 指示 实现 ,编程 简单 ， 本 节 对 本 文 改进 和 实现 的 并 行 Comba 乘法 的 性 能 进行 测 
但 程序 运行 效率 较 低 。 而 层次 更 低 的 Athread 能 够 对 任务 划分 “， 试 与 分 析 。 实 验 平台 为 神威 太湖 之 光 计算 机 系统 ， 其 计算 节点 
以 及 数据 传输 、 同 步 等 进行 更 加 精细 的 控制 ， 虽 然 编程 复杂 ， ”为 SW26010 众 核 处 理 器 ， 操 作 系 统 为 Raise Linux， 配 备 有 完 
但 能 够 得 到 更 好 的 程序 效率 。 为 追求 更 高 效率 ， 本 文选 择 用 ， 整 的 编译 和 性 能 分 析 工具 甸 。 本 文选 择 了 最 直观 和 在 科学 计算 
Athread 进行 实现 。 中 最 为 常见 的 10 进 制 表示 方法 进行 算法 实现 和 测试 。 

在 SW26010 上 实现 并 行 Comba 时 , 根据 SW26010 处 理 器 Comba 乘法 通常 在 数据 规模 较 小 时 调用 ， 所 以 本 文 测 
的 特性 ， 本 文选 择 使 用 借鉴 笔算 乘法 改进 的 Comba 算法 。 选择 ”Comba 乘法 使 用 了 较 小 规模 的 数据 。 测 试 使 用 10 组 随机 生 
的 原因 主要 是 该 方法 实现 简单 ， 能 够 节省 很 多 程序 逻辑 控制 的 “， 产 的 数据 ， 乘 数位 数 在 百 位 和 千 位 两 个 量 级 。Comba 乘法 并 行 
开销 , 而 且 SW26010 支持 从 核 间 的 寄存 器 通信 ,能够 高 效 的 实 和 串 行 所 用 的 时 钟 周 期 对 比如 表 1 所 示 ， 加 速 比 的 计算 方法 为 
岗 从 核 之 间 的 数据 通信 。Comba 算法 主要 用 于 位 数 较 小 的 乘法 ，“” 串 行 时 钟 周 期 数 除 以 并 行 时 钟 周期 数 。 并 行 版 本 为 本 文 改进 后 
或 者 在 分 治 算法 把 乘 数 递归 到 较 小 规模 时 调用 ， 所 以 实际 通信 ”在 SW26010 上 实现 的 方法 ， 串 行 版 本 则 采用 的 经 典 的 Comba 
的 数据 量 不 会 很 大 ， 用 寄存 器 通信 能 够 实现 快速 的 通信 。 乘法 实现 方法 。 这 里 并 行 执行 是 指 在 一 个 核 组 上 利用 主 核 控 制 

在 SW26010 上 实现 Comba 算法 时 ， 从 核 阵列 并 行 地 完成 ” ”从 核 阵列 进行 加 速 计算 ， 串 行 执行 则 是 在 单个 主 核 上 运行 。 
Comba 乘法 第 一 步 各 列 的 计算 ， 主 核 完成 第 二 步 的 进位 处 理 。 

表 1 Comba 乘法 众 核 测试 结果 

乘 数 1 位 数 。”” 乘 数 2 位 数 ”并行 时 钟 周期 数 。” 。 串 行 时 钟 周 期 数 。。 加速 比 
284 351 10488 325059 30.99 
586 598 20015 920980 46.01 
664 2681 91656 4678102 $51.04 
821 5884 190685 11816065 61.97 
1086 2624 87930 7200938 81.89 
2654 3521 255391 21955324 85.97 
4892 6834 1304104 89852601 68.90 
6534 6987 2312736 129658834 56.06 
8364 7654 3857763 185600336 48.11 
9353 8632 6967634 237715560 34.12 
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从 测试 数据 中 可 以 看 出 , 本 文 实 现 的 并 行 Comba 程序 能 够 
显著 提升 Comba 乘法 的 性 能 ， 在 SW26010 众 核 处 理 器 上 加 速 
比 平均 达到 57.75。 在 乘 数位 数 在 1000-4000 位 左右 时 程序 获得 
的 加 速效 果 最 好 ， 这 是 因为 规模 较 小 时 ， 从 核 启 动 等 并 行 启动 
的 固定 开销 所 占 比重 较 大 ; 而 数据 规模 增 大 时 从 核 片 上 的 通信 
量 快速 增 大 ， 导 臻 通信 性 能 下 降 。 
虽然 针对 大 整数 乘法 的 并 行 优化 已 有 较 多 的 研究 工作 ， 但 
这 些 研究 工作 面向 的 平台 不 同 ， 采 用 的 表示 方法 不 同 ， 很 难 直 
接 对 比 不 同 工 作 的 优化 效果 。 例 如 ， 中 科 院 的 蒋 丽 娟 在 8 核 处 
里 器 上 采用 OpenMP+SIMD 实现 的 并 行 Comba 乘法 平均 获得 
5.63 的 加 速 比 0];， 乌克兰 的 Vladislav Kovtun 和 Andrew 
Okhrimenko 在 对 Comba 算法 进行 改进 后 ，4 线程 情况 下 使 用 
section 策略 和 for 策略 实现 并 行 时 可 分 别 获 得 1.5 倍 及 2 倍加 

速 09。 与 蒋 丽 娟 使 用 8 核 时 获得 5.63 加 速 比 以 及 Vladislav 
Kovtun 和 Andrew Okhrimenko 在 4 线程 下 获得 1.5-2 倍加 速 相 
比 ， 本 文 程序 在 65 核心 (1 个 主 核 +64 个 从 核 ) 的 SW26010 单 
个 核 组 上 , 采用 并 行 化 、 向 量化 等 优化 方法 后 平均 获得 57.75 加 
速 ， 在 并 行规 模 扩 大 的 情况 下 ， 程 序 并 行 效率 仍 有 优势 。 
测试 结果 一 方面 说 明 本 文 改进 后 实现 的 并 行 Comba 算法 
本 身 有 较 好 的 并 行 性 , 而 且 代 码 实现 上 也 充分 发 挥 了 SW26010 
众 核 处 理 器 的 性 能 优势 ， 男 一 方面 也 说 明 国 产 SW26010 众 核 
处 理 器 在 处 理 大 整数 运算 方面 也 能 发 挥 好 的 效果 。 


洋 


5 ”结束 语 


基于 计算 机 体系 结构 的 发 展 以 及 现实 中 对 高 效 大 整数 乘法 
需求 的 提升 , 本 文 对 众 核 处 理 上 的 大 整数 基本 乘法 进行 了 研究 。 
在 对 笔算 乘法 和 Comba 乘法 并 行 性 进行 分 析 的 基础 上 , 本 文 对 
Comba 乘法 进行 了 详细 研究 ， 分 析 了 Comba 乘法 并 行 化 时 卫 
临 的 负载 均衡 问题 并 提出 了 多 种 解决 方法 。 最 后 针对 国产 众 核 
处 理 器 SW26010 的 结构 特征 ， 选 择 了 借鉴 笔算 乘法 改进 的 
Comba 乘法 , 并 且 进 行 了 优化 实现 。 在 并 行 Comba 乘法 的 基础 
上 ， 后 续 我 们 会 对 其 他 乘法 方法 的 并 行 化 继续 进行 研究 ， 在 此 
基础 上 构建 完整 的 并 行 大 整数 乘法 系统 。 
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